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基于 正四 棱锥 结构 的 机 器 人 声 源 定 位 系统 研究 
陈 国 良 ， 徐 ” 扬 ， 黄 晓 琴 


(武汉 理工 大 学 机 电工 程 学 院 , 武汉 430070) 


摘 要 : 声 源 定 位 成 为 机 器 人 智能 研究 的 重要 方向 。 针 对 当前 声 源 定位 精度 不 理想 、 实 时 性 不 佳 等 问题 ， 提 出 了 一 种 
正四 棱锥 麦克 风 阵 列 声 源 定位 结构 。 采 用 时 间 延 迟 估计 的 声 源 定位 方法 ， 并 提出 时 延 值 的 快速 搜索 策略 ; 推导 了 该 结 
构 的 基于 信号 时 延 的 时 空 映射 关系 ， 建 立 了 声 源 目 标 位 置 的 几何 计算 模型 ， 并 依据 正四 棱锥 结构 特点 及 宛 余 的 时 延 值 
对 值 域 划 分 ， 缩 小 求解 范围 ， 运 用 和 迭代 算法 得 到 声 源 的 位 置 坐标 ， 并 通过 双重 筛选 机 制 蓟 除 错 误 的 定位 结果 。 实 验 结 
果 证 明了 该 结构 及 定位 算法 在 提高 系统 定位 精度 和 实时 性 能 的 有 效 性 ， 能 满足 机 器 人 应 用 中 对 声 源 定位 的 需求 。 
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Sound Source localization System for robot based on rectangular pyramid structure 


ap Chen Guoliang, Xu Yang, Huang Xiaogin 
e my (Institute of Electrical & Mechanical Engineering, Wuhan University of Technology, Wuhan 430070, China) 


G3 Abstract: Sound source localization (SSL) has become an important field of intelligent robot research. This paper proposed a 
localization model based on the multi-microphone with the rectangular pyramid structure. Firstly, the system employed the time 


delay estimation (TDE) method based on the cross-power spectral phase algorithm and a fast search strategy of peak value to 


estimate the time delay differences. And then, the geometric equation based on the time-space mapping relationship is established 


to calculate the position of the sound source. For fast solving the equations, the multi-microphone array space is divided into 


me several subspaces to narrow the solution range according to the characteristics of rectangular pyramid structure and the redundant 


time differences, and Newton iterative algorithm is introduced to solve the equations, which its solution with a large error is 


eliminated by the double screening mechanism. The experimental results show that the model and the algorithm are effective in 
improving the localization accuracy and real-time performance, which can meet the demand of sound source localization in 
robot application. 
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0 引言 从 机 器 人 识别 环境 的 角度 ， 机 器 人 可 以 监听 所 在 环境 下 的 异常 
音 ， 并 定位 出 声音 源 ， 找 出 声音 事件 发 生 的 位 置 ， 便 于 机 器 

机 器 人 作为 当前 科学 技术 领域 的 活跃 因子 ， 提 高 其 智能 化 。 人 报警 或 者 自行 处 理 该 异常 事件 。 此 外 ， 还 有 护理 机 器 人 、 智 
水 平 , 实现 与 人 类 更 加 友好 、 便 捷 的 交互 是 未 来 的 发 展 趋势 由。 能 雷达 系统 等 重要 行业 领域 的 应 用 都 表明 了 机 器 人 听觉 的 积极 
听觉 是 人 体 所 具有 的 重要 功能 ， 也 是 人 感知 外 界 环 境 ， 并 与 外 ”作用 ， 对 人 类 的 生产 和 生活 有 着 较 为 深远 的 影响 。 
界 环境 进行 交互 的 重要 方式 ,再 者 听觉 有 其 独特 的 优势 , 比如 ， 前 ， 常 用 的 声 源 定位 方法 有 三 种 :基于 最 大 输出 功率 的 
听觉 具有 全 向 性 ， 而 且 能 够 在 黑暗 的 、 有 障 得 物 遮 挡 的 环境 下 可 挖 波束 形成 方法 59、 高 分 辩 率 谱 估计 方法 "3 和 基于 时 延 佑 
进行 定位 P3。 因 此 ， 基 于 听觉 感知 与 定位 的 智能 机 器 人 技术 得 计 方 法 &I。 其 中 ,基于 时 间 延 迟 的 定位 方法 ,由 于 其 计算 量 相 
到 了 广泛 的 关注 与 快速 的 发 展 。 对 较 小 ， 易 于 实现 而 成 为 最 普遍 使 用 的 方法 00。 文 献 [12] 在 机 
听觉 定位 技术 在 机 器 人 领域 具有 广阔 的 应 用 前 景 握 。 一 方 ” 器 人 球形 头 部 措 建 仿 双 耳 声 源 定 位 系统 ， 为 了 降低 基于 信号 相 
面 ,从 机 器 人 服务 于 人 的 角度 ,该 技术 可 使 机 器 人 定位 说 话 人 ， 关 的 时 延 估计 算法 中 ， 信 和 号 采样 率 对 定位 分 辩 率 的 影响 ， 利 用 
跟踪 声 源 轨迹 , 提高 人 机 交互 的 智能 性 和 友好 性 ; 另 一 方面 ， 最 大 似 然 方法 找 出 最 大 化 互 功 率 之 和 的 声 源 轴 向 角 ， 另 外 考虑 
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机 器 人 头 部 带 来 的 多 径 效应 ， 降 低 外 界 干 捧 ， 利 用 基于 
back 的 多 径 补偿 因子 来 修正 时 延 估 计 。 文 献 [13] 设 计 了 四 麦克 
风 的 十 字 平 面 阵列 ， 并 提出 一 种 基于 时 间 差 特征 的 空间 顶 格 匹 
配 算法 ， 找 到 与 待定 位 声 源 的 时 间 差 特征 最 匹配 的 栅 格 作为 声 
源 位 置 . 该 方法 可 以 有 效 地 避免 几何 定位 方法 的 非 线性 方程 组 
求解 问题 ， 复 杂 度 较 低 .并 且 合理 的 麦克 风 阵 列 拓扑 可 以 避免 
几何 定位 方法 可 能 陷入 局 部 最 优点 的 问题 ， 但 阵列 尺寸 较 大 ， 
限制 了 与 机 器 人 的 结合 。 当 前 ， 优 化 麦克 风 阵 列 结构 以 提高 与 
机 器 人 的 融合 度 ; 探索 鲁 棒 的 、 定 位 精度 高 、 对 各 种 噪声 广泛 
适用 的 抗 噪声 技术 以 适应 人 机 交互 中 复杂 的 声学 环境 成 为 机 器 
人 听觉 系统 实用 化 过 程 中 的 研究 热点 。 

本 文 基于 声 达 时 间 差 设计 一 种 正四 棱锥 麦克 风 阵 列 定位 系 
统 。 采 用 互 功 率 谱 相位 算法 获取 时 延 ， 并 提出 峰值 快速 搜索 策 
略 ， 根 据 正四 棱锥 的 结构 特点 和 元 余 的 时 延 值 对 求解 区 域 进行 
划分 ， 缩 小 值 域 范围 ， 最 后 采用 牛顿 迭代 算法 求 得 声 源 的 最 优 
化 位 置 解 ， 实 验证 明 该 模型 和 定位 算法 有 效 地 提高 了 计算 的 速 
度 和 定位 的 精度 。 


1 ”正四 棱锥 声 源 定位 原理 


1.1 声 源 定位 原理 
同一 声 源 传播 到 空间 位 置 不 同 的 两 个 麦克 风 7na 和 ms 会 产 
时间差 rzi ，r2i 由 声 源 到 达 mz 的 时 间 减 去 声 源 到 达 mma 的 时 间 
得 ( 同 理 , 可 以 定义 Piz ), 这 里 设 rzi > 0, 即 声 源 接近 于 ma， 
民 据 时 间 差 可 以 得 到 声 程 差 。 由 双 曲 线 的 性 质 可 知 ， 双 曲线 上 
任意 一 点 到 两 个 焦点 距离 差 的 绝对 值 为 常数 ， 即 实 轴 长 。 据 此 
可 知 ， 声 源 将 在 以 这 两 个 传声器 的 位 置 为 焦点 ， 声 程 差 为 实 划 
长 的 双 曲 线 并 且 靠 近 mi 的 分 支线 上 。 当 有 多 个 传声器 的 时 候 ， 


| 这 


el In J# 
NS 


陈 国 良 ， 等 : 
1 +oo 
二 jor 1 
Rs (7) 2x [ Dan (wo)G,。 (w)e dw ( ) 
Oss (@) 二 2 
其 中 : gx,x, 为 加 权 函 数 ，Gx,x,(w) 为 两 麦克 风 获 取信 号 x1(t) 和 


Xz(t) 的 互相 关 功 率 谱 函 
时 延 值 。 

1.2.1 峰值 的 快速 搜索 策略 

当 信号 的 采样 频率 较 高 、 数 据 量 较 大 时 ， 能 缩小 互相 关 函 
数 的 峰值 搜索 区 间 ， 人 快速 准确 地 找 出 峰值 点 ， 
能 和 实时 性 的 一 种 表现 。 
对 于 单个 声 源 和 两 个 麦克 风 而 言 ， 它 们 在 同一 平面 上 可 存 
在 两 种 几何 关系 。 图 2 所 示 ， 一 种 是 线性 关系 ， 即 直线 szma7mmz 
和 直线 sgm2m4， 男 一 种 是 三 角 关 系 ， 即 三 角形 symim， 


数 。Rx,x, (7) 蜂 值 所 对 应 的 横 坐 标 即 为 


也是 提高 算法 性 


声 源 


妈 2 声 源 与 麦 殉 风 的 几何 关系 图 


当 两 个 麦克 风 的 位 置 固 定 , 距离 间隔 为 !， 并 设 声 源 到 达 麦 
um 的 距离 与 到 达 麦 克 风 m2 的 距离 差 值 为 4。 由 于 三 角形 任 
两 边 之 差 小 于 第 三 边 ， 因 此 只 有 当 声 源 与 两 麦克 风 共 线 ， 如 
源 位 于 图 2 中 s> 或 者 ss 时 ，d 取 得 最 大 值 1 和 最 小 值 ~!。 若 声 
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就 可 以 得 到 多 个 双 曲 线 ， 则 多 个 双 曲 线 的 交点 即 为 声 源 的 位 置 


音 的 传播 速度 是 v， 采 样 频率 为 F， 则 易 知 峰值 所 在 的 采样 点 数 


04。 如 图 1 所 示 ，5 为 声 源 。 


图 1 基于 时 延 的 双 


线 声 源 定位 原理 


1.2 时间 延迟 估计 

teen on i 
一 声 源 的 信号 模型 ， 则 两 信号 模型 必然 存在 相关 性 。 互 功率 谱 
相位 算法 就 是 通过 检测 这 言 号 的 互相 关 函 数 的 峰值 点 而 得 


(LD 


区 间 为 [Lx f/v,lxf/v]。 如 图 3 所 示 , 虚线 1 和 虚线 2 即 为 
峰值 搜索 的 边界 。 由 此 可 以 限定 峰值 的 搜索 范围 ， 减 少时 延 估 
计 的 耗 时 。 


0 
采样 点 x 104 


图 3 峰值 搜索 区 间 


1.2.2 时 延 值 第 选 
所 估计 的 时 延 值 出 现 误差 ， 且 误差 较 大 时 ， 将 导致 最 终 
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到 声 源 到 达 两 个 麦克 风 的 时 延 值 0si9。 其 互相 关 函 数 可 以 表示 
六 


定位 的 数值 性 错误 ， 而 且 若 在 区 域 的 分 界线 附近 出 现时 延误 差 
也 极 易 产生 定位 的 方向 性 错误 。 因 此 ， 在 时 延 值 快速 搜索 的 基 
础 上 ， 更 进一步 ， 提 出 对 时 延 值 的 筛选 策略 ， 其 具体 实现 过 程 
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如 下 : 
a) 理想 状态 下 ， 在 同一 次 时 延 估计 中 ， 麦 克 风 i, j,k 之 间 
的 时 延 值 存在 如 下 关系 : 


Tij = Tig + Tj (3) 


2.1 分 区 迭代 过 程 

初始 位 置 坐标 的 选取 对 牛顿 迭代 算法 的 收敛 速度 以 及 最 终 
的 收敛 结果 产生 较 大 的 影响 。 为 了 初步 确定 声 源 位 置 坐标 范 目 
从 而 减 小 迭代 次 数 ， 也 使 每 个 取 值 范 围 内 具有 唯一 的 优化 点 ， 


tr 


例如 riz = rs + rsz， 但 由 于 时 延 估计 精度 的 问题 ， 上 式 不 
可 能 处 于 完全 相等 的 状态 ， 它 们 之 间 有 一 个 误差 的 存在 。 

b) 针对 a) 中 所 提 到 的 误差 设 定 一 个 合理 的 阔 值 5， 其 中 se 
值 可 根据 系统 定位 精度 的 需求 来 设 定 ， 并 进行 下 面 不 等 式 的 判 
类 : 


[zy (tix 十 txj)| <e (4) 

c) 当 不 满足 该 不 等 式 时 , 说 明 时 延 估计 的 偏差 较 大 ， 则 按 
弃 该 组 时 延 值 ， 当 满足 条 件 时 ， 则 该 组 时 延 通过 筛选 ， 进 而 进 
行 定 位 计算 。 
1.3 ”基于 时 间 延 迟 估计 的 正四 棱锥 声 源 定位 

设计 采用 基于 正四 棱锥 的 三 维 麦 克 风 阵列 进行 声 源 目标 的 
定位 。 建 立 如 图 4 所 示 的 坐标 系 ，mo 一 m4 分 别 为 五 个 麦克 风 
且 位 于 四 棱锥 的 五 个 顶点 之 上 ， 毕 标 分 别 为 (xi,yi,2i) (i = 
0,1,2,3,4)， 待 求 声 源 点 6G 的 坐标 为 (x,y,z)， 声 音 在 空气 中 的 传 
播 速 度 为 vsouna， 声 源 点 G 到 各 个 麦克 风 的 距离 分 别 为 si(i = 
0,1,2,3,4); 则 目标 声 源 到 达 其 他 麦克 风 的 距离 与 到 达 mo 的 距离 
之 差 为 


一 、 


dio = Si So Vsound Ti (i = 1,2,3,4) (5) 
其 中 Ttio 为 声 源 到 达 mi 与 到 达 mo 的 时 间 差 。 
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图 4 正四 棱锥 声 源 定位 示意 图 


图 4 的 空间 几何 关系 可 建立 声 源 定 位 数学 模型 如 下 : 


Si =V(x-%) +(y-») +(z-z) 
= rm) (eo) (0) 
dio =5;— so(i=1,2,3,4) 


2 ”基于 和 迭代 优化 的 声 源 位 置 计算 


方程 组 (6) 中 的 任意 三 个 方程 联 立 , 均 可 求解 出 声 源 的 位 置 
坐标 。 考 虑 到 实际 测量 的 误差 ,可 以 使 其 中 三 个 方程 分 别 联 立 ， 
采用 牛顿 迭代 优化 算法 求解 出 一 组 位 置 坐标 ， 由 组 合 原理 易 知 
可 以 得 到 四 组 解 ， 再 取 四 个 解 的 平均 值 作为 位 置 坐标 的 最 终 估 
计 值 。 


正四 棱锥 的 结构 特点 可 知 麦 克 风 阵列 在 定位 时 会 产生 元 余 的 
时 间 差 ， 例 如 Ti(i = 23,4)， 当 ri >0、tril>0、rd>0 且 
T21 三 T4141 时 ， 可 知 声 源 的 位 置 坐标 满足 {x,y,z)|x > 0,y > 
0&x 三 y}， 方位 角 也 必然 在 [0" 45] 的 范围 内 。 因 此 ， 可 以 充分 
利用 这 些 元 余 时 间 差 进行 求解 区 间 的 划分 ， 照 此 规则 ， 如 图 5 
所 示 ， 按 45 为 一 个 区 域 ， 将 定位 空间 等 划分 为 八 个 区 域 。 当 得 
知 麦克 风 阵 列 测 得 的 时 间 差 以 及 时 间 差 之 间 的 相对 大 小 关系 时 ， 
即 可 初步 将 声 源 的 位 置 坐标 锁定 在 其 中 一 个 区 域内 ， 由 此 可 以 
缩小 求解 的 范围 区 间 ， 加 快 计算 速度 。 
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图 5 定位 区 间 划 分 示意 图 


牛顿 迭代 算法 原理 ,并 结合 阵列 定位 数学 模型 ,将 (6) 式 
转换 为 四 组 标准 的 迭代 表达 式 ， 其 中 一 组 为 

f(xy7)= x-i) +(y-») +(z-z) 0) 
一 (za +(y— y) +(z 一 wy) -doli = 1,2,3) 


其 Jacobi 矩阵 为 
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则 声 源 坐标 位 置 可 以 表示 为 


1) 9 f yg) 


(9) 
2.2 定位 结果 筛选 
通过 上 节 对 时 延 值 的 筛选 ， 为 迭代 运算 进行 准确 的 区 间 划 
分 和 求解 提供 了 一 定 的 保障 。 当 和 迭代 运算 在 正确 的 区 间 运 行 时 ， 
四 组 定位 结果 较为 准确 ， 且 彼此 之 间 的 误差 较 小 ， 然 而 当 声 源 
极其 接近 分 界线 时 ， 很 小 的 时 延误 差 也 会 造成 求解 区 域 的 判断 
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错误 ， 在 错误 的 区 间 进 行 迭 代 运 算 ， 将 得 到 错误 的 定位 结果 ， 
且 定 位 结果 之 间 误 差 较 大 ， 甚 至 无 法 得 出 结果 。 因 此 ， 可 以 利 
用 这 一 差异 ， 采 用 与 时 延 值 筛选 相似 的 方法 对 误差 设 定 阔 值 
6x(k = 12,3)， 并 设 四 组 定位 


则 : 
[x pt zj| < 61 
|yi—y| < 6; (10) 


|zi = zj| < 63 


其 中 : i,j = 1,2,3,4 且 i 冯 j，65x 值 根据 系统 定位 精度 需求 而 定 。 
当 定 位 结果 满足 上 面 三 个 不 等 式 时 ， 则 通过 定位 筛选 ， 认 
为 定位 结果 是 正确 的 ， 否 则 予以 剔除 。 
将 通过 筛选 机 制 得 到 的 四 组 解 取 平 均值 作为 最 终 的 定位 结 
此 可 以 求解 出 声 源 目 标 到 原点 距离 R、 方 位 和 角 


区 


日 


果 (x,y,2)， 
ga、 仰角 6。 


R=Ve ty te (11) 
& =arctan> (12) 
冰 


TY (13) 


PB = arctan 


3 ”实验 结果 与 分 析 


3.1 实验 样机 

图 6 为 声 源 定位 的 测试 样机 。 样 机 在 硬件 上 主要 包括 正四 
棱锥 阵列 、 麦 克 风 模块 、 数 据 采 和 集 卡 以 及 计算 机 等 。 正 四 棱锥 
阵列 设计 后 由 3D 打印 完成 ， 棱 长 为 23cm， 在 四 棱锥 的 五 个 顶 
点 处 设计 有 麦克 风 安 装 孔 ， 可 实现 麦克 风 与 阵列 模型 较为 稳 国 
的 机 械 连 接 ， 麦 克 风 采用 DGO-6050CD-P， 为 全 向 性 驻 极 体 麦 
克 风 ， 频 率 范围 为 20Hz-16KHz。 麦 克 风 的 具体 参数 如 表 1 所 
示 。 样 机 实验 所 用 的 移动 机 器 人 平台 为 “旅行 家 二 号 ” 轮 式 移 
动机 器 人 。 


表 1 麦克 风 技术 参数 


参数 数值 
尺寸 9.7X6.7mm 
灵敏 度 -48-66dB 
方向 特征 全 指向 
工作 电压 范围 1.5-10V 
阻抗 低 阻 抗 
电流 消耗 最 大 500hA 


选用 USB_HRF4626 数据 采集 卡 完成 对 声音 信和 号 的 采集 与 
传输 , 其 一 端 通过 USB 与 计算 机 连接 , 另 一 端 通过 5 根 数据 线 
与 麦克 风 阵 列 相连 ， 如 图 7 所 示 。 该 款 数 据 采 集 卡 是 一 种 基于 
USB 总 线 的 高 速 高 精度 同步 数据 采集 卡 ， 可 以 很 方便 地 与 外 部 
设备 连接 ; 其 具有 8 路 16 位 高 精度 同步 AD 采集 通道 , 本 实验 


结果 分 别 为 (xi,yi,2i) (i = 1,2,3,4)， 


V 合 
chinaxiv 合 作 基 


| 
| 定位 系统 研究 


使 用 其 中 的 5 路 通道 即 可 。 
50KHz。 典 


单 通道 的 采样 频率 最 大 值 达到 


L 体 参数 如 表 2 所 示 。 


图 6 麦克 风 阵 列 实物 图 


表 2 数据 采集 卡 技术 参数 


参数 数值 
AD 类 型 双 极 4 
精度 16bit 
输入 电压 量程 10-10V 
电压 通道 数 8 
最 大 耐 压 值 +16.5V 
最 高 采样 频率 50KHz 


对 


7 数据 采集 卡 的 连接 图 


各 麦克 风 获 取 声 源 信号 并 经 过 预 处 理 后 ， 采 用 互 功率 谱 相 
位 算法 获取 两 两 麦克 风 的 时 延 值 。 例 如 对 于 麦克 风 m; 和 mj， 将 
两 麦克 风 接 收 到 的 声音 信号 通过 传 里 叶 变换 从 时 域 变 换 到 频 域 ， 
在 频 域 内 通过 互 功率 谱 加 权 函 数 突出 声 源 信号 抑制 噪声 影响 ， 
再 将 信号 变换 到 时 间 域 ， 最 后 通过 检测 这 两 个 信号 的 互相 关 函 
数 的 峰值 点 而 得 到 时 延 值 zj， 如 图 8 所 示 。 


i 


i 


一 一 由 | 您 当 一 > 互 功率 谱 上 色 | 功率 谱 加 权 


m, ~ 
J 


沁 


时 延 ty 二 峰值 检测 | 区 


图 8 时 延 获取 的 信号 处 理 过 程 图 


编写 上 位 机 程序 求 取 麦 克 风 的 各 时 延 值 ， 然 后 采用 第 二 节 
的 迭代 优化 定位 算法 即 可 得 出 声 源 的 位 置 坐标 ， 其 上 位 机 界面 
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移动 机 器 人 声 源 定位 系统 
时 延 值 ， 坐标 值 ， 极 坐标 ， 
t10，| -036 |Im  X: 298 m R: 371 nm 


合同 兽 届 


t20, | 024 |m 四 

t30，| 062 |m ee 

e004 Tz 099 Bed 36 下 
指令 发 送 

串口 号 cowf = 

波 特 率 , 9600 

| 打开 串口 | 

[手动 发 送 ] 

几许 时 发 着 

定时 周期 | 2000 | ms 


图 9 上 位 机 界面 180” 图 翅 克 风 阵列 


口 ” 声 源 测试 点 


3.2 ”实验 分 析 2 

通过 具体 实验 来 验证 所 建 麦 克 风 阵列 模型 以 及 定位 算法 性 
能 的 优 和 劣 。 该 实验 被 安排 在 一 间 较 为 宽敞 的 实验 室内 ， 可 保证 
在 室内 任何 一 个 角落 都 可 以 接收 到 声音 信号 。 实 验 环 境 相对 安 
静 ， 但 也 存在 一 定 噪 声 的 和 干扰， 噪声 的 来 源 主要 是 室内 照明 设 
备 的 声响 以 及 电脑 的 散热 , 实验 环境 如 图 10 所 示 。 定位 阵列 模 
型 被 安装 在 机 器 人 平台 上 并 建立 起 通信 连接 ， 声 源 选用 已 录制 
好 的 一 段 拍手 的 声音 信号 ， 因 为 拍手 声 的 信号 能 量 集中 ， 且 无 


图 11 测量 点 分 布 示 意图 


声 段 与 有 声 段 区 分 明显 ， 易 于 实验 的 进行 ， 声 音信 号 大 小 为 45 实验 采取 的 数据 处 理 流 程 为 : 信号 预 处 理 阶 段 ， 信 号 分 帧 
dB。 样 机 采样 频率 设置 为 50 kHz。 帧 长 为 1024 个 采样 点 ， 帧 移 为 512 个 采样 点 ， 时 延 估 计 阶 段 ， 


实验 总 共 进 行 了 36 个 位 置 的 测量 ， 声 源 设备 到 阵列 中 心 点 ”采用 互 功率 谱 相 位 算法 进行 时 延 估 计 ， 并 通过 筛选 机 制 剔除 误 
的 距离 R 分 别 为 In、2m、3m、4m、5m、6m， 每 个 距离 点 上 方 ”” 差 较 大 的 时 延 估计 值 ， 定 位 阶段 ， 采 用 所 提出 的 分 区 迭代 方法 


位 角 w 分 别 为 0、60`、120、180”、240”、300", 仰角 B 均 为 30 ， 求 取 目 标定 位 结果 ， 并 对 定位 结果 进行 筛选 。 实 验 在 每 个 测量 
如 图 11 所 示 。 点 重复 做 5 次 测量 ， 然 后 取 平 均值 作为 该 测量 点 的 最 终 定 位 结 
果 。 得 到 的 实验 结果 如 表 3 所 示 。 
表 3 定位 实验 结果 统计 表 度 单位 :( 度 ) ”距离 单位 :(m) 
真实 值 实验 值 真实 值 实验 值 真实 值 实验 值 
(a, B, R) (a, B, R) (a, B, R) (a, B, R) (a, B, R) (a, B, R) 
(0,30,1) (0.9,30.8,1.05) (60,30,1) (59.1,29,7,1.06) ~ (120,30,1) (120.7,30.6,0.91) 
(0,30,2) (1.1,30.3,2.08) (60,30,2) (60.6,30.9,2.10) (120,30,2) (118.9,28.9,2.08) 
(0,30,3) (1.0,29.8,2.88) (60,30,3) (60.8,30.6,3.13) ~ (120,30,3) (121.1,30.4,3.12) 
(0,30,4) (0.8,30.5,3.85) (60,30,4) (60.9,29.3,3.88) (120,30,4) (120.7,30.4,4.13) 
(0,30,5) (0.9,30.5,5.18) (60,30,5) (60.9,29.1,5.19) © (120,30,5) (119.0,29.7,4.86) 
(0,30,6) (1.0,30.4,6.22) (60,30,6) (59.2,30.0,6.19) © (120,30,6) (121.0,29.3,6.21) 
真实 值 实验 值 真实 值 实验 值 真实 值 实验 值 
(a, B, R) (a, B, R) (a, B, R) (a, B, R) (a, B, R) (a, B, R) 


(180,30,1) (181.1,30.6,1.07) (240,30,1) (239.0,30.2,1.04) (300,30,1) (301.3,29.5,1.07) 
(180,30,2) (181.2,30.8,1.88) (240,30,2) (240.9,30.2,2.11) (300,30,2) (300.8,30.6,1.90) 
(180,30,3) (180.9,30.9,3.09) (240,30,3) (241.4,29.3,2.85) (300,30,3) (301.3,29.3,3.12) 
(180,30,4) (181.3,29.4,4.16) (240,30,4) (241.2,30.9,3.87) (300,30,4) (298.8,29.6,4.14) 
(180,30,5) ~ (180.9,29.6,5.18) (240,30,5) (241.0,30.6,5.17) (300,30,5) (301.4,29.3,5.16) 
(180,30,6) ~ (181.3,30.3,6.16) (240,30,6) (241.4,30.9,5.82) (300,30,6) (301.2,30.7,6.24) 


表 3 的 定位 结果 , 采用 均 方 根 误差 (RMSE) 作 为 实验 定位 ”的 定位 ， 仰 角 的 影响 因素 相对 较 小 。 因 此 ， 本 实验 将 重点 分 析 
精度 的 判断 标准 。 由 于 本 实验 着 重 实现 机 器 人 对 室内 声 源 目标 ” 定位 距离 与 定位 方位 角 的 精度 问题 ， 暂 不 考虑 仰角 信息 (由 表 
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3 可 知 仰角 误差 在 1.2 以 内 )， 


用 


昌 此 可 得 到 定位 误差 的 


线 图 ， 


了 | 12 到 图 15 所 示 。 


图 12、13 可 知 , 在 同一 方位 角度 下 ， 随 着 声 源 与 定位 阵 


列 距离 的 增 大 ， 距 离 定 位 误差 与 角度 定位 误差 呈现 出 不 同 的 关 
即 定位 距离 误差 随 着 距离 的 增 大 而 增 大 , 在 6m 的 范围 
内 , 最 大 距离 定位 误差 保持 在 0.25 m 以 内 , 最 小 误差 只 


系 曲线 。 


0.05m 


左右 ;而 方位 角 定 位 误差 并 没有 随 着 声 源 距 离 的 变化 而 出 现 显 
著 的 变动 , 误差 在 1.5 以 内 , 保持 了 较 好 的 稳定 性 , 定位 精度 相 


对 较 高 。 从 距离 误差 与 
度 要 优 于 距离 定位 精度 。 初 步 分 析 ， 


度 误差 的 相对 大 小 来 看 ， 角 度 定位 精 


造成 这 种 定位 精度 差异 的 


重要 原因 是 距离 的 计算 式 〈11) 是 


乘 方 与 加 法 组 成 ， 这 也 会 


造成 误差 的 累积 ; 


0.3r 
一 一 0 

mat 
= 20 
| 一 一 180" 
| 一 240" 
-9300" 


差 /m 
o 
六 


距离 测量 误 


而 角度 值 的 求解 公式 恰恰 相反 ， 是 由 
成 的 ， 这 对 误差 的 消除 起 到 了 一 定 的 作用 。 


除 式 组 


1 2 


3 
距离 值 /m 


4 5 6 


图 12 定位 距离 误差 与 距离 的 关系 曲线 
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图 13 定位 


9 度 误差 与 距离 的 关系 曲线 
图 14 和 图 15 可 知 ， 在 同一 距离 的 情况 下 ， 随 着 方位 角 


的 变化 ， 距 离 定 位 误差 与 方位 角 定 位 误差 均 呈 现 出 较 平稳 的 关 


系 曲线 。 距 离 定 位 误差 的 波动 范围 保持 在 0.08m 以 内 ， 方 位 角 


定位 误差 的 波动 范围 维持 在 0.6 以 内 。 从 阵列 结构 上 分 析 可 知 ， 


于 正四 棱锥 的 对 称 性 ， 使 得 从 各 个 角度 接收 到 声 源 信号 较为 


不 同 而 出 现 显 著 的 波动 。 


均衡 。 因 此 距离 定位 误差 和 角度 定位 误差 并 没 


随 着 方位 角 的 


距离 测量 误差 /m 


0 60 120 180 240 300 


方位 角 值 /* 


定位 距离 误差 与 方 


图 14 


位 角 的 关系 曲线 
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8 
9 


角度 测 基 误差 /。 


方位 角 信 /* 
图 15 定位 角度 误差 与 方位 角 的 关系 线 


3.3 ”相对 误差 分 析 

图 16 和 图 17 分 别 表示 定位 距离 相对 误差 与 定位 方位 角 相 
对 误差 随 距离 与 角度 的 变化 曲线 。 从 图 中 可 以 看 出 ， 两 者 的 相 
对 误差 均 随 着 两 者 的 增 大 而 出 现 减 小 的 趋势 ， 在 设 定 的 实验 距 
离 范围 内 , 定位 距离 的 相对 误差 最 大 值 为 , 最 小 值 仅 为 2.67% 
方位 角 的 相对 误差 则 在 
求 。 


以 内 ， 能 较 好 地 满足 室内 


标定 位 需 


相对 误差 /% 


有 3 4 
距离 值 /Im 


图 16 定位 距离 的 相对 误差 


相对 误差 /% 


图 17 定位 角度 的 相对 误差 


3.4 性 能 对 比 验证 

科大 讯 飞 作为 智能 语音 技术 的 先行 者 ， 在 语音 识别 、 声 源 
定位 等 多 项 技术 上 拥有 领先 的 成 果 。 旗 下 发 布 的 新 一 代 平面 六 
麦克 风 环 形 阵 列 XFR801， 和 集成 声 源 定位 、 语 音 增强 、 语 音 唤 
醒 、 语 音 打 断 等 多 种 功能 ， 广 泛 应 用 于 机 器 人 、 智 能 家 居 、 御 
能 硬件 等 多 种 场景 ， 其 算法 复杂 度 较 高 。 而 声 源 定位 作为 本 文 
的 研究 重点 和 研究 目标 ， 因 此 重点 从 声 源 定位 的 角度 将 本 阵列 
与 XFR801 进行 比较 ， 其 结果 如 表 4 所 示 。 有 关 XFR801 的 其 
他 功能 与 技术 是 本 文 今后 需要 学 习 和 研究 的 方向 。 
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表 4 性 能 对 比 结 
WR 
范围 ”定位 误差 仰角 定位 ”距离 定位 ”语音 增强 ”语音 唤醒 
XFR80l 30 <If 在 否 是 是 
测试 样机 。 360 <15 是 是 个 否 


4 ”结束 语 


设计 实现 了 基于 正四 棱锥 的 空间 声 源 定位 系统 。 该 系统 采 
互 功率 谱 相 位 算法 获取 时 延 ,并 制定 了 时 延 值 快速 搜索 策略 
建立 起 合适 的 声 源 定位 数学 模型 ， 并 对 求解 区 域 进行 划分 ， 初 
步 确 定 定 位 范围 ， 采 用 牛顿 迭代 算法 求 取 声 源 的 位 置 坐 标 ， 
利用 双重 筛选 机 制 剔 除 错误 的 定位 结果 。 从 实验 结果 与 分 析 可 
以 看 出 ， 该 模型 和 算法 达到 了 较 好 的 定位 效果 ， 在 一 定 程度 上 
弥补 了 先前 声 源 定位 模型 定位 精度 不 理想 的 问题 ， 可 以 满足 实 
际 的 应 用 步 ， 将 该 装置 与 移动 机 器 人 结合 ， 可 实现 
对 声 源 目标 的 自主 定位 与 跟踪 。 
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